专利摘要:
本明細書では、位置決定装置用の音声データを柔軟かつ動的に作成および/または修正できるようにする技術について説明している。一部の実施形態では、言語データベースおよび複数の音声ファイルを含む音声パッケージが提供される。前記言語データベースは、前記位置決定装置により音声出力することを意する情報について、適切な構文および語彙を指定する。前記音声ファイルは、前記位置決定装置からアクセス可能な語(word)および/または句(phrase)を含み、前記情報が聴覚的出力により伝達される。一部の実施形態では、音声パッケージツールキットを利用して、音声パッケージの1若しくはそれ以上の部分が構築および/またはカスタマイズされる。
公开号:JP2011508882A
申请号:JP2010540817
申请日:2008-12-19
公开日:2011-03-17
发明作者:ウィスカー、デービット、ダブリュー.;カイアー、ジェイコブ、ダブリュー.;ハマーシュミット、スコット、ディー.;ブランク、スコット、ジェイ.;ラッセル、マイケル、ピー.
申请人:ガーミン スウィッツァランド ゲーエムベーハー;
IPC主号:G01C21-00
专利说明:

[0001] 位置決定装置の利用者は、1若しくはそれ以上の位置決定方法により、自らの地理的な位置を決定することができる。適切な位置決定方法としては、人工衛星ベースのナビゲーションシステムの利用、携帯電話システムからのデータの利用などがある。また位置決定装置は、利用者の現在位置や、利用者の現在位置から別の位置への道順といった位置関連データを利用者に送信することもできる。例えば、利用者は、職場から特定のレストランへ運転したい場合、位置決定装置を介して、職場からレストランまでの運転の道順を要求できる。次いで前記装置は、グラフィカルディスプレイ(表示装置)で道順を視覚的に表示するなど、種々の形式で道順を提供することができる。位置決定装置は、聴覚的なターンバイターン指示による道順も利用者に提供できる。聴覚的な運転指示は、利用者が運転時に道順を受け取る際、道路からグラフィカルディスプレイへと注意を向ける必要がないという点で有用である。]
発明が解決しようとする課題

[0002] 現在の位置決定装置は、聴覚的な運転指示を提供する際、事前に録音された音声(pre−recorded voice:PRV)を使用することが多い。しかし、現在のPRV実施態様には、いくつかの欠点がある。第1に、現行のPRV実施態様の多くでは、構文および語彙の知識が当該位置決定装置のオペレーティングソフトウェアにより定義されており、これにより既存PRVの修正およびPRVの新規作成が妨げられている。第2に、一般的なオペレーティングソフトウェア内で定義される固定された構文および語彙は、当該位置決定装置から特定のイベントについて出力される音声クリップのランダム(無作為)な選択を妨げる。第3に、一般的なオペレーティングソフトウェア内で定義される固定された構文および語彙により、PRVおよび他の音声データに含まれた音声クリップがランダムな時刻に、またはランダムな間隔で再生されるのが妨げられる。最後に、現在のPRV実施態様は、道順関連の句(phrase)を再使用し、音声出力をカスタマイズする選択肢がほとんど、またはまったくないため、サードパーティ開発者による使用が困難である。]
課題を解決するための手段

[0003] 本明細書では、位置決定装置用の音声データを柔軟かつ動的に作成および/または修正できるようにする技術について説明している。一部の実施形態では、言語データベースおよび複数の音声ファイルを含む音声パッケージが提供される。前記言語データベースは、位置決定装置から音声出力するよう意図した情報について、適切な構文および語彙を指定する。前記音声ファイルには、前記情報を聴覚的出力により伝達するため、前記位置決定装置からアクセス可能な語(word)および/または句(phrase)が含まれる。]
[0004] この発明の概要は、発明の詳細な説明および図面において完全に説明している事項を単に紹介するためだけに提供するものである。そのため、この概要は、本発明の不可欠な特徴を説明するものと見なすべきでも、特許請求の範囲を決定するため使用すべきでもない。]
図面の簡単な説明

[0005] 以降で行う詳細な説明は、以下の添付の図面を参照して説明する。これらの図面では、参照番号の最も左の数字(桁)により、その参照番号が初出する図の番号を示している。以降の説明において異なる状況および図で同じ参照番号を使用している場合は、それらが同様な項目または同一の項目であることを示している可能性がある。
図1は、ナビゲーション音声データの柔軟な作成および修正を提供するよう動作可能な位置決めシステム環境の例を示した図である。
図2は、音声パッケージデータを生成し、そのデータを位置決定装置にロードする実施態様の例における手続き(プロシージャ)を示したフローチャートである。
図3は、位置決定装置から出力するための音声データを読み出して配列する実施態様の具体例における手続きを示したフローチャートである。
図4は、音声パッケージ内のデータを更新する実施態様の具体例における手続きを示したフローチャートである。
図5は、音声出力を介して情報を出力するため、利用可能な複数の句から句を選択する実施態様の具体例における手続きを示したフローチャートである。] 図1 図2 図3 図4 図5
実施例

[0006] 概要
以下、ナビゲーション音声データを作成および修正する技術および工程について説明する。一部の実施形態では、言語データベースおよび複数の音声ファイルを含む音声パッケージが提供される。前記言語データベースは、位置決定装置からの音声出力を目的とした情報について、適切な構文および語彙を指定する。前記音声ファイルには、前記位置決定装置によりアクセス可能な語(word)および/または句(phrase)が含まれ、前記情報を聴覚的出力により伝達する。当該音声ファイルは、.wav、.wma、.mp3、oggなど任意の適切な形式であってよい。]
[0007] また、一部の実施形態では、音声パッケージツールキットを利用して、音声パッケージの1若しくはそれ以上の部分を構築および/またはカスタマイズする。このツールキットには、位置決定装置または他のコンピュータ装置に備えられた1若しくはそれ以上のソフトウェアモジュールおよび/またはアプリケーションを含めることができる。また、このツールキットにはテストモジュールを含めてもよく、開発者および/または末端利用者(エンドユーザー)はこれを使って前記音声パッケージに含まれる前記構文および/または語彙情報から生成された音声ファイルの種々の組み合わせを聴くことができる。前記テストキットにより、開発者および/または末端利用者は、管理された環境で種々のナビゲーションシナリオをテストでき、一部の実施形態では、このテストを実際の位置決定装置なしで行うことができる(例えば、前記テストキットは、位置決定装置とは別個のコンピュータ装置に備えてもよい)。]
[0008] 以下では、まず、本明細書で説明する技術および工程を使ってナビゲーション音声の語彙および構文を作成および修正するよう動作可能な環境例について説明する。次に、その例示的な環境で使用できる工程例を説明する(この工程例は、その要旨を逸脱しない範囲で、他の環境でも使用できる)。続けて前記音声パッケージツールキットについて説明し、次いで本明細書で説明する種々の技術および工程の実施(実装)に利用できるスクリプトの一例を示す。最後に、情報出力に使用する1若しくはそれ以上の句を利用可能な複数の句から選択するための基準を指定する工程例について説明する。ナビゲーション音声データを作成および修正するための上記の技術および工程については位置決定環境との関連で説明するが、これらの技術は多種多様な環境で使用できることが容易に理解されるべきである。]
[0009] 環境例
図1は、本明細書で説明する工程および技術を実施するよう動作可能な位置決めシステム環境の例100を示したものである。この環境100には、航行衛星102など、任意数の位置データプラットフォームおよび/または位置データ送信機が含まれる。図1の環境100では、それぞれ1若しくはそれ以上のアンテナを含むものとして前記航行衛星102を例示している。これらのアンテナは、各々、位置決め情報およびナビゲーション信号を含む信号を送信する。] 図1
[0010] 当該環境100には、携帯電話プロバイダ104およびインターネットプロバイダ106も含まれる。前記携帯電話プロバイダ104は、携帯電話および/またはデータ読み出し機能を当該環境100の種々の態様に提供することができ、前記インターネットプロバイダ106は、ネットワーク接続性および/またはデータ読み出し機能を当該環境100の種々の態様に提供することができる。]
[0011] 当該環境100には、任意タイプの地上、海上、および/または航空機上の携帯装置などの位置決定装置108も含まれる。一部の実施形態において、位置決定装置108は、パーソナルナビゲーションデバイスを有する。この位置決定装置108には、種々の位置決定機能を実施でき、これらの機能は以下における説明の便宜上、1若しくはそれ以上の位置を「知る」ことによりサポート可能な多種多様なナビゲーション技術および他の技術に関するものであってよい。例えば、位置決定機能を使うと、位置情報、タイミング情報、スピード情報、ターンバイターン運転指示、および他の種々のナビゲーション関連データを提供することができる。そのため、前記位置決定装置108は、多種多様な機能を実行するよう種々の方法で構成できる。例えば、この位置決定装置108は、図に示した自動車のナビゲーション、(航空機やヘリコプターなどの)航空ナビゲーション、海洋ナビゲーション、(フィットネス関連機器の一部などとして)個人的用途などのために構成することができる。この位置決定装置108には、上述した技術のうち1若しくはそれ以上を使って位置を決定する種々の装置を含めることができる。]
[0012] 図1の位置決定装置108には、1若しくはそれ以上のナビゲーション関連装置(航行衛星102など)からナビゲーション信号を受信するよう構成されたナビゲーション信号受信機110が含まれる。このナビゲーション信号受信機110は、グローバルポジショニングシステム(global positioning system:GPS)、GLONASS(global navigation satellite system:全地球航行衛星システム)など、多種多様なナビゲーション関連プラットフォームをサポートすることができる。ここでは明示的に例示していないが、前記位置決定装置108には、ナビゲーション信号など種々の信号を受信する1若しくはそれ以上のアンテナを含めることができる。] 図1
[0013] この位置決定装置108には、ネットワークインターフェース112も含まれ、これにより当該装置は、ネットワーク114など1若しくはそれ以上のネットワークと通信することができる。前記ネットワーク114は、ローカルエリアネットワーク、広域ネットワーク、インターネット、人工衛星ネットワーク、携帯電話ネットワークなど、適切な任意のネットワークを含んでよい。1若しくはそれ以上の実施形態において、前記ナビゲーション信号受信機110は、前記ネットワーク112からデータおよび/または信号を受信して位置を決定することができる(アシスト型GPS、または「AGPS」など)。このように、1若しくはそれ以上の実施形態では、1若しくはそれ以上のネットワークインターフェース能力を含むよう当該受信機110を構成することができる。]
[0014] 前記位置決定装置108には、1若しくはそれ以上の入出力(I/O)装置116(タッチスクリーン、ボタン、無線入力装置、データ入力装置、画面など)も含まれる。この入出力装置116には、マイクロホン(マイク)やスピーカーなど、1若しくはそれ以上の音声I/O装置118が含まれる。前記位置決定装置108の種々の装置およびモジュールは、プロセッサ120およびメモリ122と通信可能に連結される。]
[0015] 前記プロセッサ120は、それらを形成する材料またはそれらの内部で使用される処理機構により限定されるものではないため、半導体および/またはトランジスタ(例えば電子集積回路(integrated circuit:IC)やプログラム可能な論理装置)などで実装可能である。また、ここでは単一のメモリ122を示しているが、ランダムアクセスメモリ(RAM)、ハードディスクメモリ、取り外し可能な記憶媒体(リムーバブルメディアメモリ)(例えば、メモリ122は、取り外し可能なメモリカートリッジを受容するスロットにより実装できる)、および/または他種のコンピュータ可読媒体など、多種多様なコンピュータ可読記憶装置およびその組み合わせを使用することができる。前記位置決定装置108の構成要素は別個に図示しているが、これらの構成要素は、その要旨を逸脱しない範囲で、さらに分割することも、および/または組み合わせるすることもできることが明確に理解されるべきである。]
[0016] 前記位置決定装置108は、前記航行衛星102など、1若しくはそれ以上の位置データプラットフォームおよび/または位置データ送信機から送信される信号および/またはデータを受信するよう構成されている。これらの信号は前記プロセッサ120に提供され、前記メモリ122に格納可能な位置決めモジュール124により処理される。前記位置決めモジュール124は、地理的な位置を決定する機能の代表的なものであり、この決定は、例えば種々のプラットフォームまたは送信機から取得される信号および/またはデータを処理して、位置、スピード、時間等を決定するなどの位置決定機能を提供して行う。前記信号および/またはデータとしては、例えば測距信号、エフェメリス(各衛星の詳細な軌道情報)、アルマナック(全衛星の軌道概略)などの位置関連データがある。]
[0017] 前記位置決めモジュール124が実行され、前記メモリ122に格納されたマップデータ126を使ってナビゲーション指示(目的地へのターンバイターン指示など)が生成されて、マップ上で現在の位置の表示などが行われる。また、この位置決めモジュール124が実行されて、現在のスピードの決定、到着時刻の計算など、他の位置決定機能が提供される。また、他の多種多様な例も考えられる。]
[0018] メモリ122には、前記位置決定装置108が種々の入力モード(タッチ入力モードや自動音声認識モードなど)で動作できるようにする入力モードマネージャ128も格納されている。]
[0019] メモリ122は音声モジュール130も格納しており、このモジュールは、前記位置決定装置108のため、種々の音声・発話(speach)および/または音声(voice)関連機能を実行するよう構成されている。メモリ122内に格納された装置音声パッケージ132には、言語データベース134および音声データ136が含まれている。種々の実施形態において、前記音声パッケージ132は、前記位置決定装置108で利用されるオペレーティングソフトウェアとは別個になっている。前記言語データベース134には、聴覚的な情報を通信するため、前記位置決定装置108からアクセスできる構文データおよび語彙データが含まれる。前記音声データ136は、音声出力機能を提供するため、前記位置決定装置108の種々の構成要素からアクセスできる音声ファイルのリポジトリである。]
[0020] 前記メモリ122は、任意選択で、前記装置音声パッケージ132の各種態様の作成機能および/またはカスタマイズ機能を提供する音声パッケージツールキット138を格納することができる。この音声パッケージツールキット138を利用すると、開発者、末端利用者、または他のいかなる個人・団体も、前記音声パッケージのデータおよび/または構成を追加、削除、および/または変更することができる。例えば、利用者は、前記位置決定装置108の音声出力によるナビゲーション情報出力に使用すべき音声ファイルを、前記音声データ136に追加できる。その際、利用者は、音声データ136で利用できる現在の音声ファイルの取り合わせに含まれていない特定の言語または方言で、音声ファイルを追加することができる。また、利用者は、前記言語データベース134が現在提供する特定の構文および/または語彙をカスタマイズすることもできる。前記音声パッケージツールキット138では、前記装置音声パッケージ132のコンテンツ用にインターフェースを提供し、多種多様な利用者が、前記位置決定装置108のオペレーティングソフトウェアを修正することなく前記装置音声パッケージ132のコンテンツを修正できるようにする。]
[0021] ユーザーインターフェースモジュール140は、メモリ122に格納され、利用者と前記位置決定装置108との物理的相互作用に対応するよう設計されたものや、利用者から当該装置の音声入力に対応するよう設計されたものなど、多種多様なグラフィカルユーザーインターフェース(graphical user interface:GUI)を生成するよう構成される。また、前記位置決定装置108のGUIは、当該装置との触覚相互作用と、当該装置への音声入力との組み合わせなど、単一のGUIで利用者入力モードのいかなる組み合わせにも対応するよう構成することができる。]
[0022] また、前記位置決定装置108では、前記携帯電話プロバイダ104から提供されるセルラーネットワークと接続するなどの携帯電話機能を実装することもできる。この位置決定装置108には、前記インターネットプロバイダ106を通じてネットワーク接続性(インターネットへのアクセスなど)も提供される。前記インターネットプロバイダ106および/または前記携帯電話プロバイダ104を介して、当該位置決定装置108により、マップ、運転用の道順、システム更新、前記音声パッケージ132、前記音声パッケージツールキット138などを読み出すことができる。]
[0023] 当該位置決めシステムの環境100には、コンピュータ装置142も含まれる。コンピュータ装置142は、ここでデスクトップコンピュータとして例示しているが、限定を意図したものではなく、ラップトップコンピュータ、デジタルメディアプレーヤー、PDA(携帯情報端末)など、いかなる適切なコンピュータ装置も利用できる。前記コンピュータ装置142には、1若しくはそれ以上のプロセッサ144およびコンピュータ可読媒体146が含まれる。前記位置決定装置108のメモリ122と同様、前記コンピュータ可読媒体146には、多種多様なコンピュータ可読記憶装置およびその組み合わせを含めることができる。このコンピュータ可読媒体146には、リモート(遠隔)音声パッケージ148および音声パッケージツールキット150を含む種々のモジュールが格納されている。前記リモート音声パッケージ148には、言語データベース152および音声データ154が含まれている。このリモート音声パッケージ148および前記音声パッケージツールキット150には、装置音声パッケージ132および前記音声パッケージツールキット138について説明したものと同様の、または同じデータおよび機能を含めることができる。前記リモート音声パッケージ148および前記音声パッケージツールキット150の使用により、位置決定装置から遠隔地にある装置において音声パッケージを構築および/またはカスタマイズしたのち、前記位置決定装置にロードすることが可能となる。図に示したように、前記コンピュータ装置142は、前記位置決定装置108と直接、または前記ネットワーク114を介して、通信することができる。ここでは明示的に例示していないが、音声パッケージツールキットは、ウェブアプリケーションとして実装でき、これを利用すると、音声パッケージを作成および/または構成し、その音声パッケージを前記位置決定装置にダウンロードすることができる。]
[0024] 一般に、本明細書で説明するいずれの機能も、ソフトウェア、ファームウェア、ハードウェア(定置された論理回路など)、手動処理、またはこれら実施態様の組み合わせを使って実施できる。本明細書における用語「モジュール」(module)および「機能(性)」(functionality)は、一般に、ソフトウェア、ファームウェア、ハードウェア、またはこれらの組み合わせを表している。例えば、ソフトウェア実施態様の場合、モジュールとは、図1の前記位置決定装置108のプロセッサ120などのプロセッサにおける実行時に、指定されたタスクを行う実行可能な命令を表している。そのプログラムコードは、図1の前記位置決定装置108の前記メモリ122など、1若しくはそれ以上のコンピュータ可読媒体に格納することができる。本明細書で説明するナビゲーション用の音声語彙および構文を作成および修正する技術および工程はプラットフォームに依存しない。すなわち、当該技術は、種々のプロセッサを有した種々の市販コンピュータプラットフォームで実施することができる。] 図1
[0025] 手続き(プロシージャ)の実施例
以下、前述のシステムおよび装置を利用して実施できるナビゲーション音声データを作成および修正する技術および工程について説明する。これら各手続きの諸態様は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせで実装できる。これらの手続きは、1若しくはそれ以上の装置で実行される動作を指定するブロックのセットとして示しており、必ずしも各ブロックの動作実行について示した順序に限定されるわけではない。以下の説明の諸部分では、図1の前記環境100および/または他の実施形態例を参照している。] 図1
[0026] 図2は、位置決定装置用の構文情報、語彙情報、および音声データを提供する工程の一例である工程200を例示したものである。まず、音声パッケージの種々の態様を生成および/または構成する音声パッケージツールキットが提供される(ブロック202)。言語データベースは、言語構文情報および語彙情報を含んで生成される(ブロック204)。一部の実施形態では、特定の言語で語を配列し、その言語で句および/または文を構築する規則を指定するデータが、構文情報に含まれる。例えば、英語に適用される特定の構文規則では、情報を伝達するため、英語の語を配列する方法が指定される。英語は単なる一例として使用するもので、他の実施形態では、特許請求の範囲に記載された実施形態の要旨を逸脱しない範囲で、任意の適切な言語および/または方言を利用することができる。語彙情報には、特定の一言語、複数言語、および/または方言を構成する特定の語および/または句が含まれる。] 図2
[0027] 前記言語データベースから提供される言語および構文は、前記位置決定装置108から聴覚的に出力可能な複数の発話全体に対応する場合がある。本明細書における「発話」(utterance)とは、任意の句、または語および/または数の他の組み合わせをいう。一部の実施形態において、前記言語データベースは、複数の表現と、各表現に対応した1若しくはそれ以上の発話とを表すことができる。本明細書における「表現」(expression)とは、利用者に伝達することが望ましい概念をいう。当該表現は、利用者の現在位置、利用者がたどった若しくは開始した経路、または現在位置に基づいてナビゲーション装置により生成された経路、および他のナビゲーション情報やそれらの組み合わせなどに基づき、当該利用者に伝達可能な複数のナビゲーション関連表現に対応したものであってよい。ただし、当該表現は、利用者に聴覚的に伝達できる任意の情報に対応したものであってよい。]
[0028] 例えば、ナビゲーション関連表現の1つに、利用者が<distance>(<距離>)先で右折すべき旨のものがある。前記言語データベースは、この単一の表現に対応する複数の発話について、構文および語彙を指定することができる。その例を下記に示す。]
[0029] ]
[0030] このように、前記言語データベースにアクセスすることにより、前記位置決定装置108は、発話および/またはそれに対応する表現のための構文および語彙を識別することができる。本明細書でより詳しく説明するように、前記言語データベース、および提供される前記構文および/または語彙は、前記位置決定装置108に備えられたオペレーティングシステムまたは他のシステムの命令に影響を及ぼすことなく、容易に修正可能であり、任意の構文および語彙を有した望ましい任意の発話を提供することができる。]
[0031] 音声データストアは、種々の音声データファイルを含んで構成される(ブロック206)。上記のとおり、前記音声データファイルは、任意の適切な形式で格納でき、多種多様な言語および方言の語および/または句を含むことができる。一部の実施形態では、前記言語データベースおよび前記音声データストアが、1若しくはそれ以上の装置にダウンロードまたはエクスポート可能な音声パッケージ内へと組み入れられる。それらの言語データベースおよび音声データストアは、当該装置にロードされる(ブロック208)。その追加態様または代替態様として、前記言語データベースおよび/または前記音声データストアは、前記装置にアクセス可能なコンピュータ装置142などのリモートリソースにロードまたは格納することができる。工程200の全部または一部は、通常、前記位置決定装置から遠隔地にある(コンピュータ装置142などの)装置で実施される。その追加態様または代替態様として、音声パッケージツールキットを前記位置決定装置に備えて、音声パッケージの1若しくはそれ以上の態様の構成することもできる。]
[0032] 図3は、ナビゲーション関連情報の聴覚的出力を提供する工程の一例である工程300を例示したものである。まず、位置決定装置の音声出力を介して出力すべき情報が決定される(ブロック302)。その一例として、前記位置決定装置の利用者が、第1の位置から第2の位置へ移動するための道順(ターンバイターン運転指示など)を要求したとする。この例では、当該位置決定装置が、前記第1の位置から前記第2の位置に到着するには、メインストリートを2マイル西へ移動するよう、利用者に指示すべきであると決定する。当該位置決定装置は、そのための情報に関する適切な構文および/または語彙を識別する(ブロック304)。現在の例を続けると、前記位置決定装置は、言語データベースにアクセスし、前記第2の位置に到着するには、利用者がメインストリートを西へ2マイル移動すべき旨を示す情報を利用者に伝達するための適正な構文および/または語彙を、前記データベースから決定することができる。] 図3
[0033] 次いで、前記情報について識別された語彙に対応する1若しくはそれ以上の音声ファイルが読み出される(ブロック306)。現在の例では、前記語彙に、「travel」(移動します)、「drive for」((の距離)運転します)、「two」(2)、「Main」(メイン)、「street」(ストリート)などの語および/または句を含めることができる。このように、これらの語および/または句に対応する音声ファイルが読み出される(例えば、音声データ136などの音声データストアから)。一部の実施形態では、複数の種々の音声ファイルが利用でき、これらの音声ファイルは、それぞれ前記語彙に含まれる単一の語に対応している。例えば、「travel」(移動します)という情報については、「drive」(運転します)、「walk」(歩きます)、「ride」(乗ります)などいくつかの音声ファイルに関連付けることができ、各語について多種多様なアクセントおよび/または音声の抑揚を利用できるようにすることもできる。このように、前記語彙内の単一の語について音声ファイルが要求された場合は、多種多様な音声ファイルを利用して前記要求に対応できる。前記音声データファイルは、識別された適切な構文に基づいて配列される(ブロック308)。現在の例において、音声ファイルは、「drive for two miles west on Main Street」(メインストリートを2マイル西へ運転します)や「travel west on Main Street for two miles」(メインストリートを西へ2マイル走行します)といった句を形成するよう配列される。配列された音声ファイルは、前記位置決定装置により出力される状態になる(ブロック310)。例えば、一連の移動指示に含まれる個別の移動指示にそれぞれ対応した1若しくはそれ以上の文および/または句は、バッファに格納され、前記文および/または句に対応した移動指示が利用者の現在位置に該当する場合、音声出力装置に(個々にまたは1グループとして)提供される。現在の例では、利用者が右折すべき通りに近づくと、「turn right in 100 meters」(100メートル先、右折です)などの指示がバッファに格納されて、音声出力装置に提供される。前記配列された音声ファイルは、前記位置決定装置から出力される(ブロック312)。]
[0034] 図4は、音声パッケージ(言語データベースや音声データストアなど)の1若しくはそれ以上の態様を更新する工程の一例である工程400を例示したものである。この工程では、音声パッケージ用に1若しくはそれ以上の更新情報が利用できるかチェックする(ブロック402)。前記音声パッケージ用に1若しくはそれ以上の更新情報が利用可能と決定された場合は(ブロック404)、当該1若しくはそれ以上の更新情報が位置決定装置の音声パッケージにロードされる(ブロック406)。前記音声パッケージ用に利用できる更新情報はないと決定された場合(ブロック404)、当該工程はブロック402に戻る。音声パッケージ用の更新情報は、ソフトウェアおよび/またはハードウェアの開発者により、また末端利用者によっても作成される可能性がある。更新情報としては、更新された構文および/または語彙情報などがあり、新規の、および/または編集された音声ファイルが含まれることもある。当該工程400における1若しくはそれ以上の動作は、音声パッケージツールキットで実施することができる。] 図4
[0035] 音声パッケージツールキット
上記のとおり、一部の実施形態では、音声パッケージツールキットを利用して、音声パッケージの1若しくはそれ以上の部分を構築および/またはカスタマイズすることができる。一部の実施態様例において、音声パッケージツールキットは、位置決定装置で使用されるオペレーティングソフトウェアに変化を生じることなく、音声パッケージの1若しくはそれ以上の部分を作成および/またはカスタマイズするためのスクリプト言語を含み、さらに/またはこれを利用することができる。例えば、前記ツールキットは、前記スクリプト言語に書き込まれているスクリプトを処理して、前記音声パッケージ(言語データベースなど)の少なくとも一部を形成することができる。前記スクリプト言語およびそれに関連付けられたスクリプトは、前記音声パッケージとは別個のものであってよく、さらに/または前記音声パッケージの一部を有してよい。前記音声パッケージ、データベース、および/またはそれに関連付けられた音声データは、前記ツールキット、他のソフトウェア、または手動方法を利用して随時動的に更新することができる。]
[0036] 前記音声パッケージツールキットに、前記スクリプトを処理するコマンドラインユーティリティが含まれる場合、前記データベースおよびそれに関連付けられた音声データを含む前記音声パッケージを構築することもできる。また、位置決定装置を必要とすることなく音声データで表現される句をテストするテストスイートを含めることもできる。これにより、開発者または他の利用者は、使用した音声ファイルの種々の組み合わせを聞くことができる。少なくとも1つの実施形態では、コマンドラインユーティリティを使用して、各句について音声ファイルを1つの音声ファイルへと連結することができる。その追加態様または代替態様として、GUIアプリケーションでは、1若しくはそれ以上の句について、音声ファイルをアセンブルして再生できる。]
[0037] スクリプトの実施例
以下は、1若しくはそれ以上の実施形態で使用して、種々の発話用に構文および語彙を定義できるスクリプトの一例である。]
[0038] ]
[0039] 上記セクションのリストに含まれた個々の語(第1のエントリでは「in」((距離)先で)、「board」(乗る)、「ferry」(フェリー)など)は、音声ファイルのファイル名(filename)(任意の適切なファイル形式による)、<expression>は、前記位置決定装置108で識別される表現のタグ、そして<utterance entry>は、発話のタグである。上記のスクリプトは単なる例として提供するものであり、本発明の実施形態は、それに代わるスクリプトおよびデータベース、例えば発話を表現に関連付けない非階層型のスクリプトおよびデータベースを使用することもできる。]
[0040] 一部の実施形態では、音声パッケージツールキットがスクリプトのコンテンツを読み取り、与えられた任意のイベントに再生すべき音声ファイルと、音声ファイルを再生すべき順序とを指定する言語データベース(テーブル、リスト、.vpmファイルなど)を作成することができる。その言語データベースおよびそれに関連付けられた音声データ(音声ファイルなど)は、インターネットなどのネットワークを介した接続を含む有線接続または無線接続を使って、位置決定装置に転送され、使用される。ただし、一部の実施形態では、音声パッケージツールキットおよび音声パッケージは、利用者が外部または別個のコンピュータ装置にアクセスせずに音声構文および他の音声パッケージデータを変更できるよう、位置決定装置に備えてもよい。前記位置決定装置により実行されるオペレーティングソフトウェアは、聴覚的指示または他の発話(句など)を再生する必要がある際、前記音声パッケージにアクセスして、使用すべき音声ファイルと、その音声ファイルを再生すべき順序とを識別する。次に、識別された音声ファイルが、指定された順序で利用者に対し再生される。]
[0041] 各句については、種々の音声ファイルセットを個別に指定し、それらが互いに比較して再生されるべき回数に関連付けられた使用パーセンテージを与えることができる。例えば、上記のBoard Ferry(フェリーに乗ります)という指示の場合は、全体の90%の回数だけ第1のセットが再生され、10%の回数だけ第2のセットが再生されることになる。カスタム音声を使う場合には、各音声の発話内容を変更することができる。例えば、有名な俳優の声で「I pity the fool who doesn't board the ferry」(フェリーに乗らない愚か者には同情する)と再生される句などについては、陳腐化しないよう、その再生率をわずか10%にすることができる。一部の実施形態では、前記位置決定装置が、上記パーセンテージベース機能の代わりに若しくはそれに加えて、乱数または疑似乱数を生成し、特定の音声ファイルを選択および再生することができる。]
[0042] 各句では、距離に関するプレースホルダー({dist1}、{dist2})を使用できる。距離に使用される語は、当該句における他の語または当該語が使用される位置(抑揚の変化など)に依存するため、前記プレースホルダーにより、前記データベースは、各句で距離に使用すべき適正な語を指定することができる。]
[0043] その追加態様または代替態様として、各句では、可変量(変数)のコンテンツにプレースホルダー({dist1}、{dist2}、{ord1})を使用できる。可変量コンテンツに使用される語は、当該句における他の語または当該語が使用される位置(抑揚の変化など)に依存するため、前記プレースホルダーにより、前記データベースは、各句で可変量コンテンツに使用すべき適正な語を指定することができる。]
[0044] 音声ファイルの使用により創造性をもたらすため、前記音声パッケージおよびそれに対応した音声データには、ランダム(無作為)に選択される句およびナビゲーションには関係ない句を含めることができる。これら句の使用は、前記位置決定装置の実施態様または構成に応じて異なる。例えば、長い経路区間では、無作為選択された句が発話されるようにできる。可能性として、それらの句は、冗談、即妙な言葉、皮肉などである。その例としては、「You're doing great!」(好調ですね!)、「{snoring} Huh?」((ちょっと?){いびきが聞こえますよ})、「What?」(え?)、「Sorry, must have dozed off, hopefully I didn't miss our turn.」(すみません、ちょっと居眠りしまったようで。曲がる場所を通り過ぎていないといいのですが)などがある。]
[0045] 図5は、音声出力を介して情報を出力するため、利用可能な複数の句から句を選択する工程の一例である工程500を例示したものである。まず、(位置決定装置などにより)音声出力すべき情報が決定される(ブロック502)。次に、決定された音声情報をそれぞれ出力するよう動作可能な複数の異なる句が構築される(ブロック504)。例えば、運転者が1キロメートル先でファーストストリート(First Street)で左折すべき旨が前記情報に含まれる場合には、この情報を伝えるよう、いくつか異なる句を構成できる。その句の一例は「travel 1 kilometer and turn left at First Street」(1キロメートル移動して、ファーストストリートで左折します)などであり、別の一例は「turn left at First Street after traveling 1 kilometer」(1キロメートル移動したのち、ファーストストリートで左折します)などであり、さらに別の一例は「you should continue traveling for one kilometer and then make a left turn onto First Street」(このまま1キロメートル移動したら、ファーストストリートで左折しなければならなりません)などである。このように、多種多様な発話(句など)を構成して1若しくはそれ以上の表現を伝達することができ、これらの発話は、疑似ランダムに(疑似乱数的に)選択して聴覚的に再生できることが容易に理解されるであろう。] 図5
[0046] 次いで前記複数の異なる句(発話など)のうち1若しくはそれ以上を選択するための基準が指定され、当該情報が伝達される(ブロック506)。例えば、上記のとおり、発話される句の選択は、各句にパーセンテージ値を割り当てて行い、あるいはランダムまたは疑似ランダムに生成された数に基づいて行うことができる。現在の例では、第1の句が25%の回数、第2の句が25%の回数、第3の句が50%の回数、提供されるようにできる。前記指定された基準に少なくとも部分的に基づいて、これら複数の句のうち1若しくはそれ以上が選択される(ブロック508)。当該選択された1若しくはそれ以上の句は、聴覚的に出力される(前記位置決定装置などにより)(ブロック510)。]
[0047] 本発明については、構造上の特徴および/または方法論的な作用に固有の表現で説明しているが、言うまでもなく、添付の特許請求の範囲により定義される本発明は、上述した特定の特徴または作用に必ずしも限定されるものではない。むしろ、これら特定の特徴または作用は、本明細書の特許請求の範囲に記載された発明の実施形態例として開示している。]
权利要求:

請求項1
位置決定装置であって、前記装置の現在の地理的な位置を決定するよう動作可能なナビゲーション信号受信機と、前記ナビゲーション信号受信機に接続されたプロセッサと、前記プロセッサに接続された音声出力装置と、前記プロセッサがアクセス可能なコンピュータ可読記憶媒体と、前記コンピュータ可読記憶媒体に格納された音声パッケージであって、複数の完全な発話のための構文および語彙を提供する言語データベースと、前記言語データベースにより提供される前記語彙に対応する1若しくはそれ以上の音声ファイルを含む音声データストアとを有する前記音声パッケージと、コンピュータで実行可能なオペレーティングソフトウェアであって、前記音声パッケージとは別個であり、前記コンピュータ可読記憶媒体に格納され、前記プロセッサにより、前記言語データベースにおいて、前記完全な発話のうちの少なくとも1つに関する構文および語彙を識別する工程と、前記音声データストアから、前記識別された語彙に対応する前記音声ファイルのうち1若しくはそれ以上を読み出す工程と、前記識別された構文、および前記読み出された1若しくはそれ以上の音声ファイルを使って句を構築する工程と、前記音声出力を介し、前記構築された句を出力する工程とを実行可能な、コンピュータで実行可能なオペレーティングソフトウェアとを有する位置決定装置。
請求項2
請求項1記載の装置において、この装置は、さらに、前記プロセッサが外部装置から前記音声パッケージをダウンロードするのに利用されるよう動作可能なネットワークインターフェースを含むものである。
請求項3
請求項2記載の装置において、前記オペレーティングソフトウェアは前記プロセッサにより実行可能であり、前記プロセッサに前記音声パッケージ用に1若しくはそれ以上の更新情報が利用できるかどうかを決定する工程と、前記オペレーティングソフトウェアを変更することなく前記ネットワークインターフェースを介して前記音声パッケージの少なくとも一部を更新する工程とを実行させるものある。
請求項4
請求項1記載の装置において、前記オペレーティングソフトウェアは前記プロセッサにより実行可能であり、前記プロセッサに当該装置の前記現在の地理的な位置に基づいて発話を選択する工程と、前記言語データベースにおいて、前記選択された発話に関する構文および語彙を識別する工程とを実行させるものである。
請求項5
請求項4記載の装置において、前記オペレーティングソフトウェアは、前記プロセッサにより実行可能であり、前記プロセッサに当該装置の前記現在の地理的な位置に基づいてナビゲーション経路を生成する工程と、前記生成されたナビゲーション経路に基づいて1若しくはそれ以上の発話を選択する工程と、前記言語データベースにおいて、前記選択された1若しくはそれ以上の発話に関する構文および語彙を識別する工程とを実行させるものである。
請求項6
請求項1記載の装置において、前記言語データベースは、複数の言語に関する構文情報および語彙情報を含むよう動的に設定可能である。
請求項7
請求項1記載の装置において、前記言語データベースは、単一表現に関する複数の完全な発話を含み、前記オペレーティングソフトウェアは、前記プロセッサにより、当該単一表現に関する当該完全な発話のうちの1つを疑似ランダムに(疑似乱数的に)選択するよう実行可能である。
請求項8
請求項7記載の装置において、前記言語データベースは、前記単一表現に対応した前記発話の各々について使用パーセンテージを指定するものであり、前記発話は、前記指定された使用パーセンテージに少なくとも部分的に基づいて疑似ランダムに選択されるものである。
請求項9
位置決定装置であって、前記装置の現在の地理的な位置を決定するよう動作可能なナビゲーション信号受信機と、前記ナビゲーション信号受信機に接続されたプロセッサと、前記プロセッサに接続された音声出力装置と、前記プロセッサがアクセス可能なコンピュータ可読記憶媒体と、前記コンピュータ可読記憶媒体に格納されたコンピュータで実行可能な命令であって、前記プロセッサに、単一表現に対応した複数の発話を識別する工程と、前記識別された発話の1つを疑似ランダムに選択する工程と、前記音声出力を介して、前記選択された発話の表現を出力する工程とを実行させるもものである、前記コンピュータで実行可能な命令とを有する位置決定装置。
請求項10
請求項9記載の装置において、前記コンピュータ可読記憶媒体は、複数の単一表現と、それに関連付けられた複数の発話とを表す言語データベースを含み、当該言語データベースは、前記単一表現のうち任意の1つに対応した前記発話を識別するため、アクセスされるものである。
請求項11
請求項9記載の装置において、前記言語データベースは、前記単一表現に対応する前記発話の各々について使用パーセンテージを指定し、前記発話は、前記指定された使用パーセンテージに少なくとも部分的に基づいて疑似ランダムに選択されるものである。
請求項12
請求項9記載の装置において、前記コンピュータで実行可能な命令はランダム化機能を含み、前記発話は当該ランダム化機能を使って疑似ランダムに選択されるものである。
請求項13
請求項9記載の装置において、前記コンピュータ可読命令は前記プロセッサにより実行可能であり、前記プロセッサに当該装置の前記現在の地理的な位置に基づき単一表現を識別工程を実行させるものである。
請求項14
請求項13記載の装置において、前記コンピュータ可読命令は前記プロセッサにより実行可能であり、前記プロセッサに当該装置の前記現在の地理的な位置に基づいてナビゲーション経路を生成する工程と、当該装置の前記現在の地理的な位置および前記生成されたナビゲーション経路に基づいて単一表現を識別する工程とをを実行させるものである。
請求項15
位置決定装置により出力される発話を選択する方法であって、前記位置決定装置に備えられた言語データベースにおいて、単一表現に対応した複数の発話を識別する工程と、前記識別された発話の1つを疑似ランダムに選択する工程と、前記位置決定装置に関連付けられた前記音声出力を介して、前記選択された発話の表現を聴覚的に出力する工程とを有する方法。
請求項16
請求項15記載の方法において、前記言語データベースは、前記単一表現に対応する前記発話の各々について使用パーセンテージを指定し、前記発話は、前記指定された使用パーセンテージに少なくとも部分的に基づいて疑似ランダムに選択されるものである。
請求項17
請求項15記載の方法において、前記発話はランダム化機能を使って疑似ランダムに選択されるものである。
請求項18
請求項15記載の方法において、この方法は、さらに、前記位置決定装置の現在の地理的な位置および前記生成されたナビゲーション経路とに基づいて単一表現を識別する工程を含むものである。
請求項19
請求項18記載の方法において、この方法は、さらに、ナビゲーション経路を生成する工程と、前記位置決定装置の前記現在の地理的な位置および当該生成されたナビゲーション経路に基づいて単一表現を識別する工程とを含むものである。
类似技术:
公开号 | 公开日 | 专利标题
US20180350345A1|2018-12-06|Systems and methods for name pronunciation
US20200051420A1|2020-02-13|Creation of reminders using activity state of an application
JP6397067B2|2018-09-26|System and method for integrating third party services with a digital assistant
JP6535349B2|2019-06-26|以前の対話行為を使用する自然言語処理における文脈解釈
US9885582B2|2018-02-06|Systems and methods for generating electronic map displays with points-of-interest information based on reference locations
US9773498B2|2017-09-26|System and method for managing models for embedded speech and language processing
AU2013312156B2|2017-02-02|Context-sensitive handling of interruptions by intelligent digital assistants
US10121468B2|2018-11-06|System and method for combining geographic metadata in automatic speech recognition language and acoustic models
AU2017221864B2|2019-06-20|User training by intelligent digital assistant
AU2015261693B2|2017-07-20|Disambiguating heteronyms in speech synthesis
RU2542937C2|2015-02-27|Использование контекстной информации для облегчения обработки команд в виртуальном помощнике
US20160118046A1|2016-04-28|Location-Based Conversational Understanding
US9721558B2|2017-08-01|System and method for generating customized text-to-speech voices
EP3182303A1|2017-06-21|Method and apparatus for providing natural language input in a cartographic system
US7899673B2|2011-03-01|Automatic pruning of grammars in a multi-application speech recognition interface
US9805722B2|2017-10-31|Interactive speech recognition system
US8290775B2|2012-10-16|Pronunciation correction of text-to-speech systems between different spoken languages
US7424363B2|2008-09-09|Method and system for adaptive navigation using a driver&#39;s route knowledge
US10733983B2|2020-08-04|Parameter collection and automatic dialog generation in dialog systems
Walker et al.2004|Sphinx-4: A flexible open source framework for speech recognition
CA2685602C|2016-11-01|Personality-based device
JP4533845B2|2010-09-01|オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
US8447616B2|2013-05-21|Systems and methods for managing multiple grammars in a speech recognition system
US20140074470A1|2014-03-13|Phonetic pronunciation
EP1542207B1|2009-09-30|Speech recognition method and apparatus
同族专利:
公开号 | 公开日
EP2312547A1|2011-04-20|
WO2009086127A3|2010-07-01|
CN101911145A|2010-12-08|
EP2232459A4|2011-01-05|
JP5345635B2|2013-11-20|
WO2009086127A2|2009-07-09|
EP2232459A2|2010-09-29|
US20090171665A1|2009-07-02|
CN101911145B|2014-02-12|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
法律状态:
2012-05-16| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
2012-08-16| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120815 |
2012-08-23| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120822 |
2012-09-19| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120918 |
2012-09-26| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120925 |
2012-10-16| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121013 |
2012-12-26| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121225 |
2013-03-26| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130323 |
2013-04-02| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130401 |
2013-04-26| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130425 |
2013-05-08| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130507 |
2013-05-23| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130522 |
2013-07-10| TRDD| Decision of grant or rejection written|
2013-07-17| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130716 |
2013-08-22| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130814 |
2013-08-23| R150| Certificate of patent or registration of utility model|Ref document number: 5345635 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
2016-08-16| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2016-09-30| S531| Written request for registration of change of domicile|Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
2016-10-11| R350| Written notification of registration of transfer|Free format text: JAPANESE INTERMEDIATE CODE: R350 |
2017-08-08| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2018-08-07| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2019-08-13| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2020-07-31| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2021-07-30| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
优先权:
申请号 | 申请日 | 专利标题
[返回顶部]